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一 种 基于 改进 分 层 置信 规则 库 的 社交 账户 可 信和 度 评 估 方 法 
吴 菲 , 王 维 
(长 春 工业 大 学 数字 媒体 教研 室 ,长春 130012) 


摘 要 : 社交 账户 可 信 度 评估 是 确保 网 络 社交 生态 良性 发 展 的 重要 环节 。 针 对 社交 账户 可 信 度 评估 指标 多 维 、 数 据 
和 言 息 不 确定 性 多 样 等 问题 ， 提 出 了 一 种 基于 改进 分 层 置信 规则 库 的 可 信 度 评估 方法 。 首 先 从 账户 属性 、 交 际 属性 和 
内 容 属性 三 个 角度 分 析 了 可 信 度 评估 各 指标 之 间 的 相互 关系 ， 并 依 此 构建 了 置信 规则 库 的 分 层 结构 。 其 次 ， 在 信息 
转换 函数 中 引入 了 自 适 应 系数 以 更 好 描述 和 处 理 指标 间 的 特性 差异 。 最 后 ， 为 了 弥补 专家 知识 局 限 性 带 来 的 模型 误 
差 ， 采 用 带 有 投影 算 子 的 协 方差 矩阵 自 适应 进化 策略 对 自 适应 系数 和 模型 参数 进行 了 优化 。 以 新 浪 微 博 账户 作为 实 
验 对 象 ， 结 果 表 明 该 方法 能 够 在 数据 样本 有 限 的 情况 下 获得 更 高 的 可 信和 度 评估 精度 。 
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Credibility evaluation method for social accounts via improved hierarchical belief rule base 


Wu Feif, Wang Wei 
(Dept. of digital media, Changchun University of Technology, Changchun Jilin 130012, China) 


Abstract: Social account credibility evaluation is an important link to ensure the benign development of network social 
ecology. Aiming at the problems of multi-dimensional credibility evaluation indexes and various data information uncertainty, 
this paper proposed a credibility evaluation method based on the improved hierarchical belief rule base. Firstly, this paper 
constructed a hierarchical structure by analyzing the relationship between the indicators of credibility evaluation from three 
perspectives: account attribute, communication attribute, and content attribute. Secondly, this paper introduced an adaptive 
coefficient into the information transformation function to better deal with the characteristic differences between indicators. 
Finally, to make up for the model error caused by the limitation of expert knowledge, this paper used the covariance matrix 
adaption evolution strategy with projection to optimize the adaptive coefficients and model parameters. Taking Sina Weibo 
account as the experimental object, the results show that this method can obtain higher accuracy when the data samples are 
limited. 
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0 引言 但 对 账户 可 信和 度 的 量化 分 析 不 够 。 刘 亚 尚 等 人 的 研究 中 ， 将 
到 社交 账户 的 状态 分 为 正常 账户 ` 被 入 侵 账户 和 僵尸 账户 三 类 ， 
随 着 互 所 提 的 并 行 支持 向 量 机 算法 实现 了 账户 状态 的 识别 中 。 


殿 网 技术 的 不 断 发 展 ， 网 络 社交 媒体 逐渐 成 为 采用 

门 发 布 、 传 播 、 获 取信 息 的 主要 方式 。 社 交 媒 体 为 人 们 带 ”该 方 
， 其 开放 共享 的 信息 传播 机 制 也 逐渐 成 为 ”和 可 

态 、 信 息 安全 、 防 疫 防 控 等 领域 的 风险 隐患 141。 吉方 


对 训练 样本 数量 的 要 求 不 高 ， 但 同样 在 不 确定 性 描述 
度量 化 方面 存在 短 板 。 基 于 D-S 证 据 理论 的 可 信 度 评 
能 够 有 效 融 合 专 家 主观 判断 和 有 限 的 客观 数据 ， 其 采 


商 王 斑 再 斑 


尤其 是 ， 在 国际 局 势 不 断 恶化 、 新 冠 肺 炎 等 全 球 公共 安全 事 用 置信 辨识 框架 来 描述 信息 的 不 确定 性 。 但 该 评估 方法 在 处 

件 频繁 发 生 的 大 背景 下 ， 境 外 极端 份子 借助 社交 媒体 散布 谣 理 冲 突 证 据 方面 存在 不 足 [7。 

言 和 钓鱼 链接 等 违法 信息 ， 欲 达到 实施 网 络 诈 骗 、 窍 取 国 家 信和 规则 库 (Belief Rule Base, BRB) 是 英国 曼彻斯特 大 学 杨 剑 

机 密 甚至 颠 履 政权 的 目的 。 这 些 行为 严重 威胁 了 网 络 社交 生 ” 波 教 授 在 D-S 证 据 理论 、 模 糊 理论 和 下 -THEN 规则 的 基础 上 发 展 

态 的 良性 发 展 ,造成 了 社会 与 论 引 导 混乱 ,影响 了 社会 安定 。 而 来 的 一 种 基于 半 定 量 信息 的 评估 方法 4。 该 方法 通过 在 传统 正 - 
社交 账户 是 媒体 信息 发 布 的 源头 。 准 确 判 断 账 户 是 否 可 ”THEN 规则 中 引入 置信 框架 来 量化 描述 各 类 不 确定 性 ， 通 过 在 D- 

言 , 有 利于 相关 部 门 采取 合适 的 手段 来 对 危害 信息 进行 管控 。  ”S 证 据 理 论 中 引入 证 据 权 重 形成 证 据 推理 算法 (Evidential Reasoning， 


现 有 的 研究 通常 采用 包括 机 器 学 习 、 统 计 分 析 等 在 内 的 多 种 ”ER) 来 处 理 冲 突 证 据 。 BRB 能 够 有 效 融合 专家 判断 和 样本 数据 进行 
建 模 方法 对 社交 账户 的 状态 进行 判断 FE 。 王 峥 等 人 提出 了 一 ” 建 模 , 降低 了 对 高 质量 数据 集 的 依赖 $71。 目 前，BRB 已 经 广泛 应 

竺 征 加 权 贝 叶 斯 神经 网 络 模 型 ， 并 将 之 应 用 于 微 博 账号 的 用 于 复杂 工程 系统 的 健康 状态 评估 、 性 能 评估 和 大 型 工业 结构 
异常 检测 中 四 。 但 是 该 模型 依赖 于 高 质量 的 训练 数据 样本 。 的 安全 性 评估 中 [3。 
胡 学 友 等 人 基于 粗糙 集 理论 设计 了 社交 账户 信任 度 模 型 ， 通 账户 可 信 度 的 评估 涉及 多 维 指标 ， 如 用 户 关注 数 、 评 论 
过 该 模型 可 以 将 社交 账户 的 状态 区 分 为 正常 和 异常 巾 。 路 金 ”” 率 等 ， 每 个 指标 具有 不 同 的 特性 。 因 此 ， 要 充分 结合 指标 含 
泉 等 人 基于 贝 叶 斯 算法 和 层次 分 析 法 提出 了 一 种 账户 可 信和 度 。 义 构 建 多 层 评估 指标 体系 。 指 标 体系 构建 完毕 后 ， 可 采用 分 
评估 方法 ， 该 方法 将 社交 账户 评估 为 可 信和 与 不 可 信 两 级 品 。 层 BRB 实现 对 多 维 多 层 指标 的 评估 。 然 而 , 在 现 有 分 层 BRB 
这 两 种 方法 能 够 分 别 有 效 处 理 模糊 不 确定 性 和 概率 不 确定 性 ， ”模型 中 ， 不 同 指标 常常 共用 一 种 信息 转换 方法 ， 且 这 些 方法 
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等 : 一 种 基于 改进 分 层 置信 规则 库 的 社交 账户 可 信 度 评估 方法 


不 具备 自 适应 性 ， 不 能 较 好 反映 个 指标 的 特点 。 鉴 于 此 ， 本 
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文 提 出 了 基于 改进 分 层 BRB 的 账户 可 信 度 评估 方法 
(Improved Hierarchical Belief Rule Base, IHBRB)， 主 要 贡献 总 
结 如 下 : 

1 提出 了 账户 可 信 度 评估 指标 ， 并 依 此 构建 了 分 层 BRB 
评估 模型 ; 

2) 提 出 了 一 种 自 适 应 指标 信息 转换 方法 ， 并 通过 智能 优 
化 算法 实现 了 相关 参数 的 自 适应 调整 。 


1 ”研究 思路 


本 文 提 出 的 基 了 


『 IHBRB 的 应 | 


的 主要 思路 如 图 


1 有 


if 示 。 首 先 , 进行 


并 结合 
建 IHBRB 模型 ， 


模型 ,将 IHBRB 的 置信 度 、 属 性 权重 、 规 
言 息 转 换 方法 参数 等 作为 待 优化 参数 进行 自 


指标 构建 多 层 评 估 指 标 体系 ; 
提出 自 适 应 信 


于 社交 
可 信 度 评估 指标 的 选取 ， 


然后 ， 


账户 可 信 度 评估 


针对 指标 体系 构 


息 转 换 方法 ; 最 后 , 构建 优化 
则 权重 、 参 考 值 和 


后 的 评估 模型 即 可 用 于 社交 账户 可 信 度 评估 


适应 调整 。 优 化 


多 维 评估 指标 选取 


IHBRB 模 型 构建 


多 层 指 标 


体系 构建 


自 适应 信息 转化 方法 


IHBRB 关 键 参数 优化 学 习 


社交 账户 可 信 度 评估 


A 


Fig. 1 


图 1 基于 


IHBRB 的 社交 账户 可 信和 度 订 


Research idea of the social account 


F 估 研究 思路 


credibility evaluation based on IHBRB 


2 ”可 信和 度 评估 指标 体系 构建 


结合 现 肌 
从 多 个 


账户 年 限 , 记 为 0。 


究 ， 本 着 “指标 信息 获取 成 
度 选取 了 能 够 反映 账户 状态 的 指标 中 11。 
该 指标 能 够 反映 了 账户 使 用 的 历史 。 


本 低 ” 的 原则 ， 


在 网 络 社交 中 ， 极 端 份子 为 了 短 时 间 内 制造 


5 


愉 . 口 


全 二 


问答 认 订 
在 社交 媒体 中 ， 
传播 的 成 本 
于 认证 账户 。 


常 需要 短 时 间 内 创建 较 大 规模 数量 的 僵尸 


高 强度 的 与 论 压 
账号 。 从 这 


度 也 就 越 低 。 


通常 

个 度 出 发 ， 账户 年 限 越 短 ， 
信 

认证 情况 , 记 为 C， 


记 该 项 指标 涉及 身 


其 是 僵尸 账号 


份 认 证 、 兴 


的 可 能 性 越 大 ， 


《“ 趣 认证 、 


E、 会 员 认 证 等 


等 ， 其 能 够 反映 账户 信 ， 
非 认 证 账 -更 加 普 谢 ， 进行 违法 信息 生产 和 
也 更 小 。 


昌 的 完备 情况 。 


因此 ， 可 认为 非 认证 账 


粉丝 数 和 被 转 赞 评 数 ， 分别 记 为 G 和 C, 。 


户 的 可 信 度 要 低 


这 两 项 指标 主 


要 反映 账户 的 影响 力 。 通 常 , 粉丝 数 多 的 账户 其 可 信 度 更 高 ， 
相应 的 被 转 赞 评 数 也 会 越 多 .但 是 部 分 异常 账户 发 布 谣言 后 ， 
在 僵尸 账户 的 操纵 下 ， 其 被 转 赞 评 数量 也 可 能 会 出 现 增多 的 
情况 。 因 此 ， 对 于 粉丝 数 少 且 被 转 赞 评 数 多 的 账户 ， 其 可 信 
度 可 能 处 于 较 低 水 平 。 

信息 原创 率 ， 记 为 CG; 。 该 项 指标 可 采用 如 下 公式 计算 : 


全 = 
其 中 ，% 表示 账户 发 表 的 原创 信息 
信息 的 总 条 数 ， 信 
的 活跃 度 。 信息 原 
户 的 可 能 性 越 低 。 


息 存 疑 率 ， 记 为 Ce 。 


(1) 


条 数 ，% 表示 账户 所 发 表 
息 原创 率 能 够 从 一 定 程度 上 反映 用 户 自身 


创 率 越 高 的 账户 ， 是 僵尸 账户 或 被 入 侵 账 


无 论 是 原创 信息 还 是 转发 信息 ， 


克 0<Cy <1 O) 
其 中 ， 表示 账户 发 表 的 存疑 信息 条 数 。 所 发 布 信息 的 存疑 
率 越 高 ， 账 户 的 可 信和 度 就 越 低 。 
上 述 六 个 指标 中 , 账户 年 限 G 和 认证 情况 G、 粉 丝 数 Gs 


和 被 转 赞 评 数 C, 、 信 息 原创 率 C; 和 存疑 率 C6 分 别 从 账户 属性 、 
交际 属性 和 内 容 属性 三 个 角度 反映 了 账户 的 可 信和 度 。 基 于 这 些 
角度 反映 的 可 信 度 便 可 进一步 对 账户 的 整体 可 信 度 进行 评估 。 


忆 此 ， 可 构建 如 图 2 所 示 的 账户 可 信 度 评估 指标 体系 。 
其 中 ， 用 8 表示 社交 账户 的 可 信 度 , 用 及、B, 和 BB 分 别 表示 
可 信和 度 。 


账户 属性 可 信和 度 、 交 际 属性 可 信和 度 与 内 容 属性 


图 2 


账户 可 信和 度 评估 分 层 指标 体系 
Fig.2 Hierarchical index system for account credibility evaluation 
3 ”基于 IHBRB 的 可 信 度 评估 模型 构建 


3.1 基于 1HBRB 的 可 信 度 评估 框架 
结合 分 层 指 标 体系 , 可 构建 如 图 3 所 示 的 基于 IHBRB 的 
可 信 度 评估 模型 框架 。 其 中 ，BRB-1 子 模型 、BRB-2 子 模 型 


和 BRB-3 子 模型 分 别 用 于 建立 三 种 属性 可 信 度 与 各 指标 之 
间 的 关系 , 而 BRB-3 子 模型 则 用 于 建立 三 种 属性 可 信 度 与 账 
户 可 信 度 之 间 的 非 线 性 关系 。IHBRB 模型 采用 由 底 至 上 的 逐 
层 推理 模型 得 到 最 后 的 结果 。 
B 
模型 推理 
Bl 2 B; 
模型 推理 模型 推理 模型 推理 
0 化。 信息 转化 和 和 a ye 
Cl C2 C3 Cy Cs Cs 
图 3 基于 IHBRB 的 可 信 度 评估 模型 框架 


Fig.3 Credibility evaluation model framework based on IHBRB 
IHBRB 模型 中 的 第 个 子 模型 记 为 BRB-h, 它 有 一 系列 
置信 规则 组 成 ， 其 中 第 条 规则 描述 为 
RE :if Xf is Atw A A Xb is As, then{ (DF, Bi),...(D%, Bh 1)), 
with rule weight Ot and attribute weights 02 (i=1,...,M ) G3) 
其 中 ，X! 表示 模型 的 第 i 个 输入 指标 , 例如 BRB-1 中 的 CG 和 
C;; "(k=1.…,D 表示 第 k 条 规则 中 疗 的 参考 等 级 ，L 为 规 
则 的 总 条 数 ，M 表示 输入 指标 的 数量 ; ^ 表示 逻辑 关系 “与 ”， 
表示 第 条 规则 的 规则 权重 ; 同 理 ,表示 Xt 的 权重 ， 称 
为 属性 权重 ，{(D?, 所 )…D%,B&x)} 表示 第 天 条 规则 结论 部 分 中 
各 个 不 同 可 信 度 等 级 的 置信 分 布 。 其 中 ，0<ps <sLw=L2…N) 
表示 第 上 条 规则 中 对 于 第 ?个 可 信 度 等 级 D 的 支持 度 ， 也 称 
对 Ds 的 置信 和 度 。 


输入 信息 转换 是 IHBRB 模型 的 关键 步骤 ， 其 主要 目的 
是 采用 合适 的 转换 方法 将 多 种 形式 的 输入 信息 统一 至 置信 杠 
架 下 。 本 文 在 传统 信息 转换 方法 的 基础 上 提出 了 一 种 新 的 自 


认为 该 信息 存在 违 


当 信息 内 容 含有 异常 
韦 规 嫌 疑 。 信 


链接 、 杂 乱 表 情 以 及 无 含义 文字 时 ， 可 


百 息 存 疑 率 可 及 月 


日 如 下 公式 计算 : 


适应 信息 转换 方法 。 
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3.2” 自 适应 信息 转换 方法 
IHBRB 模型 输入 指标 X! 转换 为 置信 分 布 形式 的 过 程 可 
用 如 下 公式 表示 : 
f(X8)={(At;, 0 ), j=1,2.7, i=1,2.…M} (4) 


其 中 ,ew 表示 第 ;输入 指标 相对 于 第 7 个 参考 等 级 的 匹配 度 ， 

J 表示 参考 等 级 的 个 数 ， 4 表示 属性 参考 值 ，/ 9) 表示 转换 
函数 。 在 现 有 研究 中 , 传统 BRB 模型 的 定量 输入 通常 采用 式 
(5) 所 示 转 换 方法 : 


A jbD 一 履 
证 
i( j+1) 
i A PH 一 六 
ai = f(x)=11 LE 了 = 了 +1 (5) 
A 11 -A 
0 j=b2,...7 j #7 jj +1 


中 ，% 表 示 第 i 指标 的 输入 值 。 可 以 看 出 ， 上 述 转 换 方法 
线性 的 ， 难 以 准确 描述 输入 与 置信 分 布 间 的 非 线 性 关系 。 

鉴于 此 ， 对 式 (5) 进 行 一 般 化 构造 ， 增 强 其 非 线性 描述 能 
力 。 构 造 的 转换 方法 如 下 : 


各 六 


Mm- | "=jifAr <x<An 
A "+1) —Ar is 有 
Ph 二 2 
Qi = Poo)= | Ml (0) 
A ja0D 人 4 
0 j=1,2,...7, #7 jj +1l 


其 中 ， f'(*) 表示 改进 后 的 转换 函数 ， ,< 角 w 分 别 表示 相 邻 
两 个 参考 值 ，s,s>0 为 自 适应 系数 , 其 决定 着 /(*) 的 非 线性 能 
力 ， 其 可 由 专家 给 定 ， 也 可 通过 优化 的 方式 得 到 。 

为 了 说 明 这 一 点 ， 假 设 4 sa<4ton04y sm=l0， 且 
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i 个 输入 相对 其 参考 值 的 匹配 度 
归 一 化 后 的 相对 属性 权重 。 

Step2( 规 则 的 融合 ): 对 于 激活 的 规则 ， 可 使 用 证 据 推 理 
(evidential reasoning, ER) 算 法 将 规则 融合 , ER 解析 算法 表达 
式 为 


; 0 表示 属性 权重 ，5% 表示 


| C7 (C2) 
pb’ 5 k=1 所 k=] i=] 
一 4 I (1—wk )| 


(8) 


其 中 ， Bi 表示 第 条 规则 对 第 个 参考 等 级 D, 的 置信 度 ; 
启 表 示 输 出 中 第 个 参考 等 级 D, 的 置信 度 ， 且 满足 
0spBr sl Psl, 

Step3( 评 估 结 果 的 输出 ): 
为 如 下 所 示 的 置信 分 布 形式 : 

5(%)={(Di,pB)},n=b2..,N (10) 

其 中 ， 5(*) 表示 输出 函数 ， 上 述 结果 以 效用 的 形式 输出 可 表 
示 为 


推理 后 得 到 的 评估 结果 可 表示 


> 


5G)=15(%)=> (Da GD) 


ee D, 的 效用 ， 即 其 参考 值 ，HAS (5) 为 
结果 的 效用 。 
在 IHBRB 中 ， s(%) 作为 下 一 层 子 模型 的 输入 信息 进行 推 
导 ， 直 到 生成 最 终结 果 。 


4 ”基于 1IHBRB 的 可 信和 度 评估 模型 的 自 适 应 优化 
于 社交 账户 的 可 信和 度 评估 问题 ， 现 有 理论 方法 难以 建 


全 
TT 


> 


e990, , 当 s 取 不 同 值 时 ，g(%) 的 输出 如 图 4 所 示 。 

可 以 看 出 ， 当 0<s<1 时 ， g8(%) 为 四 函数 ， 当 1<s 时 ，g(%) 为 
是 函数 ; 特别 地 ， 当 s=1 时 ， 式 (6) 退 化 为 式 (5)， 其 描述 的 是 
线性 关系 。 
在 实践 中 ， 针 对 不 同 指标 的 转换 方法 赋予 不 同 的 自 适 应 
系数 ， 即 可 实现 更 加 精准 和 有 效 的 信息 转换 。 


图 4 信息 转换 函数 曲线 图 
Fig.4 The curve of the information transformation function 

3.3 可 信 度 评估 模型 推理 方法 
IHBRB 模型 中 , 各 子 模型 的 输入 信息 在 转换 为 置信 分 布 


后 ， 需 要 进行 规则 激活 和 融合 ， 其 输出 结果 作为 下 一 层 子 模 
型 的 输入 ， 依 次 完成 逐 层 推理 。 不 同 子 模型 间 的 推理 模式 相 


同 ， 以 第 BRB-h 为 例 ， 其 推理 的 主要 步骤 如 下 ; 


|e 


立 起 精确 的 机 理 模型 ， 但 用 户 和 专家 在 长 期 使 用 过 程 中 能 够 
积累 一 定 的 经 验 ， 通 过 网 页 爬虫 等 技术 手段 也 可 以 获取 一 些 
数据 样本 。 本 文 所 提 方 法 能 够 综合 利用 上 述 信息 ， 即 IHBRB 
模型 的 初始 参数 可 由 领域 专家 结合 经 验 给 定 ， 后 通过 优化 算 
法 和 数据 样本 对 初始 参数 进行 调整 ， 以 弥补 专家 知识 局 限 性 
造成 的 模型 误差 品 。 
现 有 关于 BRB 模型 优化 的 研究 主要 分 为 两 类 0253: 一 类 
是 在 一 定 约束 下 调整 待 优 化 参数 ， 使 模型 输出 与 实际 系统 输 
出 之 间 的 误差 最 小 ， 另 一 类 是 在 优化 目标 中 引入 结构 参数 ， 
在 提高 模型 建 模 精度 的 同时 降低 模型 的 复杂 度 。 然 而 ， 这 两 
类 方法 未 在 优化 时 考虑 转换 函数 特性 对 建 模 性 能 的 影响 。 鉴 
于 此 ， 在 现 有 优化 目标 函数 中 引入 转换 函数 的 自 适 应 系数 作 
为 待 优 化 参数 , 新 的 优化 目标 函数 及 其 约束 条 件 可 构建 如 下 : 
ee 
0=(0,.. 


= [1 


0=(01 NOR y= (i) 
St. 
0<Or <Lk=12,...Lh=12,..,H (12) 


0<6r <1, i=1,2,...M 
0<p <1, n=1,2,...N, B=1 
0<s5,i=1,2,...M 


Step1( 规 则 的 激活 ): 在 获取 匹配 度 后 ， 需 要 结合 属性 权 
重 和 规则 权重 来 计算 相应 规则 的 激活 权重 。 规 则 激活 权重 用 
以 表示 输入 信息 对 规则 的 激活 程度 ， 其 计算 方法 为 

A 
es 0 
>4 -HTL) “| lM 


其 中 ， wt 表示 第 条 规则 的 激活 权重 
相应 规则 已 被 激活 ; 名 表示 规则 权重 ; 


当 0< 夏 <1 时 则 认为 
ci 表示 该 规则 中 第 


其 中 ，0 ,8 ,9 和 s 分别 为 IHBRB 中 所 有 规则 权重 、 置 信 度 、 
属性 权重 和 转换 函数 自 适 应 系数 构成 的 参数 向 量 ; # 为 


| 


HBRB 中 子 模型 的 个 数 ， w( 为 损失 函数 ， 用 以 描述 模型 输 
出 与 实际 系统 输出 的 区 别 。 在 本 文中 ， 损 失 函 数 用 均 方 误差 
来 计算 ， 其 具体 描述 如 下 

P00.5) = D0 -hy (13) 
其 中 , 7 为 输出 的 数量 ; 和 多 分 别 表 示 实 际 输出 和 模型 输出 。 
现 有 研究 已 证 明 BRB 模型 是 由 多 个 复合 函数 组 成 的 非 
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线性 非 凸 模型 ， 这 为 其 参数 优化 带 来 了 挑战 由。 为 了 提高 


度 ， 其 是 社交 账户 可 信 度 的 局 音 


模 精 度 , 许多 优化 算法 被 应 用 于 BRB 的 优化 , 例如 差分 进化 
算法 (Differential Evolution ，DE)、 粒 子 群 优化 算法 (Particle 
Swarm Optimization, PSO) 和 带 有 投影 算 子 的 协 方差 矩阵 
应 进化 策略 (Covariance Matrix Adaption Evolution Strategy 
with Projection, P-CMA-ES)5-181]。 与 DE 算法 和 PSO 


比 ，P-CMA-ES 算法 能 够 以 专家 确定 的 初始 解 为 中 心 ， 
维 正 态 分 布 形式 进行 新 解 的 生成 ， 这 有 也 


i 


全 局 最 优点 05。P-CMA-ES 的 基本 流程 如 图 $ 所 示 。 


| 四 初始 化 操作 | 
| 给 定 初始 参数 KC", Pp, 6, ,DD. | 
| 分 别 表 示 初 始 参数 向 量 、 初 妈 协 方差 生 阵 初始 步 幅 、 种 群 大 小 、 后 | 

1 


代 种 群 大 小 。gp" =K" 表示 初始 均值 。 


| 回采 样 操作 | 
1 区 和 一 ODSN(0C9i=1L2 4 | 
| 其 中 , Ki" 表示 在 第 (e+1) 代 中 的 第 i 个 方案 。 N() 是 正 态 分 布 。 | 


| 一 一 一 二 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
| 加 投影 操作 
| KE (+n, x(j—D:nx))=K" (+n, x(j-D:n,x)) | 
一 是 7 x(Y,xY')! XK 1(1+n, x(j-D:nx))xY, | 

站 
1 


1 

也 1 
| 9 = 疡 三品 
| 其中， 及 是 权重 系数 有 号 表 采 从 第 G+) 代 中 选取 的 方案 表示 | 
| 最 优 方案 。 
C0-e)C tap "(pe")’ +e, 人 NE 9) | 
| 其 中 ，G 和 c 是 学 习 速度 。 p. 表示 进化 路 径 。 


图 5 P-CMA-ES 算法 的 主要 流程 
Fig.5$ Main flow of P-CMA-ES algorithm 


5 ”案例 研究 


5.1 案例 背景 


ly 


于 在 ee 
中 充分 结合 专家 的 初始 判断 43。 同时 ，P-CMA-ES 算法 在 高 
维 非 线 性 优化 方面 表现 优越 ， 能 够 在 寻 优 过 程 中 快速 收敛 至 


新 浪 微 博 是 国内 典型 的 热门 社交 媒体 ， 是 谣言 等 危害 
县 发 布 的 重要 场所 。 在 其 长 期 的 运营 中 ， 积 累 了 大 量 的 骨 
资料 。 本 文 以 新 浪 微 博 中 的 社交 账户 作为 研究 对 象 ， 通 过 3 
放 数据 接 口 和 通用 爬虫 技术 对 账户 注册 年 限 10 年 内 的 账 广 


资料 进行 了 搜集 ， 获 取 了 100 个 账户 的 基本 信息 。 通 过 人 了 


分 析 这 些 账户 的 交际 行为 、 内 容 发 布 等 诸多 基本 特征 ， 
分 为 了 “完全 不 可 信 ”、 “部 分 可 言 ”、 “基本 


] 信 -Ss 


口 
社交 账户 可 信 度 评估 指标 对 应 的 数据 如 图 6 所 示 。 


交 账 户 可 信 度 设置 的 致 ， 即 元 至 个 虽 


其 参考 等 级 可 与 社 
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言 (UD)”“ 部 分 可 信 (P)” 


和 “基本 可 信 (F)” 对 应 的 参考 值 可 分 别 取 0,0.5 和 1 。 


解读 如 下 : 


对 于 评估 指标 


,其 参考 等 级 和 参考 值 可 设 


如 表 1 所 示 ， 


三 个 参考 等 级 。 
年 。 同 时 ， 年 限 “ 中 ”和 “ 


10 年 。 


社交 账户 其 使 


年 限 可 分 为 “ 短 (S)”“ 


HOV) EY 


据 经 验 ， 可 设置 年 限 “ 短 ” 
长 ”的 参考 值 分 别 设置 为 4 年 和 


的 参考 值 为 0 


对 于 账户 的 认证 情况 ， 认 证 的 数量 越 多 其 可 信 度 越 高 。 
账户 认证 数 的 参考 等 级 可 设置 为 “了 
(M)”， 其 参考 值 可 分 别 设置 为 0 项、 
账户 粉丝 数 的 参考 等 级 可 
(S)”、 “一 般 (N)” 和 “多 (M)”。 
为 0 个 、3000 个 、5000 个 和 15000 个 。 


E(NO)”“ 少 (S)” 和 “多 
2 项 和 5 项。 

设置 为 四 个 , 即 “ 无 (NO)”、“ 少 
个 参考 等 级 分 别 设置 参考 值 


被 转 赞 评 数 ee 无 (NO)”“ 少 (S)” 和 “多 


(M)”， 参 考 值 设置 为 0 个 


50000 个 和 150000 个 。 


起 原创 率 和 存疑 率 的 参考 等 级 可 设置 为 “ 低 (L)”“ 中 


(M)” 和 “高 (HD”， 


Tab. 1 


、50% 和 100%。 
指标 参考 等 级 和 参考 值 


The referential levels and referential values 


Ci C2 


Cs Cse 


等 级 值 等 级 值 等 级 值 等 级 
S 0 NO 0 NO 


M 4 S 
L 10 M 


等 级 值 等 级 值 


0 L 0 


M 05 M 0.5 


1 H 1 


结合 上 述 指标 参考 等 级 和 参 
的 趋势 性 分 析 ， 可 以 针对 各 子 
如 表 2 所 示 。 IHBRB 
1， 规 则 的 初始 权重 专 
转换 函数 的 初始 
5=vo=93=2=%5=5%=l。 在 


5.3 ”模型 优化 与 结果 分 析 


考 值 ， 通 过 专家 经 验 及 数据 
模型 的 规则 库 给 出 初始 参数 ， 

站 了 了 模 型 输入 的 初始 权重 均 设 为 
黄 型 中 6 个 输入 指标 


外 适应 系数 均 设 


为 1， 即 


IHBRB 模型 的 初始 参数 进行 调整 。 优 化 目标 函 


和 式 (13) 确 定 。 


在 所 获取 的 数据 外 
以 整个 数据 集 作 为 测试 集 。 对 于 


I 


看 出 ， 账 户 的 多 种 属性 与 其 年 限 均 有 一 定 关 联 性 。f 


户 存在 人 
这 些 数 ] 


交 账 户 可 信 度 评估 方法 开展 实例 研究 。 


图 6 ”账户 可 信 度 评估 指标 数据 
Fig.6 Data ofaccount credibility evaluation indicators 


5.2 ”案例 分 析 与 模型 构建 


使 用 习惯 、 受 教育 水 平 以 及 生活 地 域 等 多 方面 差异 ， 

居 难 以 直观 反映 账户 可 信 度 ， 因 此 必须 采用 一 定 的 到 
模 方法 实现 可 信 度 评估 。 本 文 将 采用 所 提 基 于 IHBRB 的 社 

可 


[2 


使 用 IHBRB 进行 账户 可 信和 度 评 估 时 ， 首 先 需 要 选择 i 


估 指 标 及 可 信 度 的 参考 等 级 


参数 向 量 K" 即 ey 初始 协 方差 入 


由 于 专家 认 知 的 所 


比 情况 下 , 该 转换 函数 为 线性 函数 。 


的 数据 样本 对 


中 ， 随 机 取 50% 的 数据 作为 训练 集 ， 
化 算法 ， 初 始 


E 阵 Co 为 单位 


阵 ， 初 始 步 幅 


优化 后 的 IHBRB 3 模型 
中 优化 后 的 各 子 模型 的 指标 
1、0.93、0.91 和 1, 优 化 后 转换 函 娄 
0.35、0.59、1.72、2.18 和 1. 
IHBRB 模型 对 测试 集中 账 
所 示 ， 可 见 优化 后 的 模型 能 够 更 好 实现 对 社交 账 
估 。 初 始 模型 和 优化 后 模型 的 
和 0.0028， 优 化 后 模型 的 精度 提高 
5.4 ”对 比 研 究 

为 了 进一步 验证 所 提 方 法 的 有 效 性 
中 ， 采 用 无 自 适应 系数 转换 函数 的 IHBRB 模型 
J( 记 为 BPNN)、 模 灶 
归 支 持 向 量 机 模型 ( 记 为 SVR) 对 前 3 
FRM、SVR 为 三 种 常 


1)、 神 经 网 络 模型 


度 评 估 。BPNN、 


ee 


数 依据 式 (12) 


为 200 代 。 


重 和 置信 度 如 
别 为 : 0.75、1、0.55、1、0.3、 
适应 系数 分 别 为 : 1.61、 
5 采用 初始 IHBRB 和 优化 后 的 


[ 表 3 所 示 , 其 


平 估 结果 如 图 7 


户 进 行 可 信和 度 评 估 ， 记 


返 


户 可 信 度 的 评 


俞 出 结果 均 方 误差 分 别 为 0.0562 


E， 在 本 节 的 对 比 研 究 
J( 记 为 IHBRB- 
E 理 模型 ( 记 为 FRM) 和 回 
中 的 账户 进行 可 信 


BPNN 模型 具 


评估 模型 。 其 中 ， 
等 优点 ，FRM 模型 能 够 有 效 所 


述 和 处 理 模 糙 不 确定 性 


对 于 账户 属性 可 信 度 、 交 际 属 性 可 信和 度 和 内 容 属 


性 


ol 


Te SVR 模型 


不 依赖 于 优化 数据 样 


高 的 建 模 精度 。 对 比 实 


录用 定稿 吴 菲 ,， 等 : 一 种 基于 改进 分 层 置 信 规 则 库 的 衬 
验 中 ， 随 机 选取 50% 的 数据 作为 训练 集 ， 以 整个 数据 集 为 测试 
集 ， 进 行 10 轮 重 复 实验 ， 以 结果 的 平均 值 为 最 终结 果 。 
表 2 初始 IHBRB 模型 
Tab.2 The initial IHBRB 
BRB-1 CC 规则 结论 BRB-4 BiB;B3 规则 结论 
1 S NO {0.5,0.5,0} 1 UUU {0.6,0.3,0.1} 
2 S SS {0.3,0.6,0.1} 2 UUP {0.4,0.6,0} 
3 S M {0,0.8,0.2} 3 UUF {0.1,0.2,0.7} 
4 M NO {0.4,0.5,0.1} 4 UPU {0.5,0.3,0.2} 
5 M S {0.1,0.1,0.8} 5 UPP {0,0.6,0.4} 
6 M M {0.1,0.2,0.7} 6 UPEF {0.1,0.4,0.5} 
了 L NO {0,0.2,0.8} 7 UFU {0.2,0.2,0.6} 
8 L S {0.3,0.6,0.1} 8 UFP {0.2,0.2,0.6} 
9 L M {0.1,0.3,0.6} 9 UFF {0,0.7,0.3} 
BRB-2 Ci Cy 规则 结论 10 PUU {0,0.6,0.4} 
1 NO NO {0.1,0.7,0.2} 11 PUP {0.6,0.3,0.1} 
2 NO S {0.2,0.7,0.1} 12 P UF {0.1,0.7,0.2} 
3 NO M {0.2,0.5,0.3} 13 PPU {1, 0, 0} 
4 S NO {0,0.9,0.1} 14 PPP {0.9,0.1,0} 
5 S S {0,0.8,0.2} 15 PPF {0.3,0.6,0.1} 
6 S M {0.1,0.8,0.1} 16 P FU {0.1,0.4,0.5} 
7 N NO {0.4,0.5,0.1} 17 PFP {0, 0, 1} 
8 N S {0.3,0.7,0} 18 PEFEF {0.1,0.3,0.6} 
9 N M {0,0.2,0.8} 19 F UU {0.1,0.6,0.3} 
10 M NO {0.3,0.5,0.2} 20 FUP {0.6,0.3,0.1} 
11 M S {0.1,0.6,0.3} 21 FUF {0.3,0.5,0.2} 
12 M M {0,0.1,0.9} 22 FPU {0.1,0.1,0.8} 
BRB-3 C; Cs 规则 结论 23 F PP {0.2,0.5,0.3} 
1 L L {0,0.2,0.8} 24 FPF {0.3,0.6,0.1} 
2 L M {0.8,0.1,0.1} 25 FFU {0.6,0.3,0.1} 
3 L H {0.4,0.5,0.1} 26 FFP {0.3,0.6,0.1} 
4 ML {0,0.4,0.6} 27 FFF {0.8,0.1,0.1} 
5 M M {0.2,0.8,0} 
6 M H {0.4,0.6,0} 
7 H L {0.1,0.6,0.3} 
8 H M {0.5,0.3,0.2} 
9 H H {0.2,0.5,0.3} 
1 
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图 7 ”账户 可 信 度 评估 结果 
Fig.7 The results of account credibility evaluation 
实验 结果 如 图 8 所 示 ， 可 以 看 出 这 些 模型 经 过 优化 均 能 
够 从 一 定 程度 上 反映 账户 的 可 信 度 。 对 比 IHBRB 与 IHBRB- 
1 结果 可 以 看 出 ， 转 换 函 数 自 适 应 系数 的 引入 对 评估 精度 的 
提高 有 较 大 作用 。FRM 对 “完全 不 可 信 ” 的 评估 精度 高 于 对 
“部 分 可 人 和信” 和 “基本 可 信 ” 的 评估 精度 。 
对 于 上 图 中 的 某 一 账户 样本 , 其 账户 年 限 为 10 年 ,认证 
数 为 5 项 , 粉丝 数 为 37422 人 ,被 转 赞 评 数 为 219054 人 次 , 信 
息 原创 率 为 97% 以 及 信息 存疑 率 为 3%， 通 过 专家 判断 其 为 基 
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信 分 布 为 {0.00, 0.16, 0.84}， 对 应 可 信和 度 效用 为 0.92; IHBRB-1 


输出 的 置信 分 布 为 {0.05, 0.21, 0.74} ， 对 应 可 信和 度 效 用 为 0.84; 
BPNN 输出 的 可 信 度 为 0.81; FRM 输出 中 对 各 可 信 度 等 级 的 隶 
属 度 分 别 为 0.08,0.33 和 0.59, 对 应 的 可 信和 度 效用 为 0.755; SVR 
输出 的 可 信和 度 值 为 0.79。 可 见 , 这 些 模型 均 认 为 该 账户 属于 “ 基 
本 可 信 ” 但 是 IHBRB 模型 不 仅 能 够 输出 相对 于 各 等 级 的 置信 
度 ， 其 量化 评估 的 可 信 度 更 接近 真实 值 。 
机 TTT Tr rTrrrrrrrrrr 
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图 8 对 比 实验 结果 图 
Fig.8 The result of comparative study 
表 3 优化 的 IHBRB 模型 
Tab.3 The optimized IHBRB 
BRB-1 权重 规则 结论 BRB-4 权重 规则 结论 
1 0.60 {0.85,0.09,0.06} 1 0.73 {0.23,0.7,0.07} 
2 0.31 {0.36,0.44,0.2} 2 0.55 {0.31,0.2,0.49} 
3 0.09 {0.49,0.15,0.36} 3 0.95 {0.34,0.27,0.39} 
4 0.51 {0.73,0.14,0.13} 4 0.24 {0.47,0.23,0.3} 
5 0.21 {0.45,0.06,0.49} 5 0.75 {1, 0, 0} 
6 0.28 {0.52,0.14,0.34} 6 0.06 {0.36,0.29,0.35} 
7 0.30 {0.08,0.18,0.74} 7 0.72 {0.32,0.58,0.1} 
8 0.24 {0.54,0.16,0.3} 8 0.24 {0.56,0.27,0.17} 
9 0.46 {0.03,0.13,0.84} 9 0.34 {0.33,0.31,0.37} 
BRB-2 权重 规则 结论 10 0.48 {0.14,0.41,0.45} 
1 0.22 {0.13,0.75,0.12} 11 0.21 {0.2,0.53,0.27} 
2 0.09 {0.33,0.1,0.57} 12 0.50 {0.38, 0.45, 0.17} 
3 0.30 {0.25,0.49,0.26} 13 0.48 {0.38,0.39,0.23} 
4 0.61 {0.11,0.76,0.13} 14 0.07 {0.31,0.38,0.31} 
5 0.65 {0.16,0.13,0.71} 15 0.58 {0.32,0.51,0.17} 
6 0.21 {0.17,0.31,0.52} 16 0.36 {0.37,0.29,0.34} 
7 0.14 {0.26,0.33,0.41} 17 0.42 {0.32, 0.35, 0.33} 
8 021 {0.11,0.61,0.28} 18 0.75 {0.4,0.27,0.33} 
9 0.30 {0.27,0.57,0.16} 19 0.58 {0.46, 0.33, 0.21} 
10 0.10 {0.26,0.16,0.58} 20 0.53 {0.41,0.21,0.38} 
11 0.74 {0, 0, 1} 21 0.71 {0.48,0.35,0.17} 
12 0.89 {0.31,0.51,0.18} 22 0.05 {0.25,0.32, 0.43} 
BRB-3 权重 规则 结论 23 0.83 {0.03,0,0.97} 
1 1.00 {0.12,0.48,0.4} 24 0.40 {0.23,0.39,0.38} 
2 0.74 {0.39,0.45,0.16} 25 0.65 {0.62,0.06,0.32} 
3 0.64 {0.26,0.33,0.41} 26 0.88 {0.49,0.22,0.29} 
4 0.32 {0.29,0.52,0.19} 27 0.31 {0.54,0.11,0.35} 
5 0.08 {0.21,0.1,0.69} 
6 0.35 {0.01,0.46,0.53} 
7 0.07 {0.35,0.39, 0.26} 
8 0.39 {0.4,0.07,0.53} 
9 0.89 {0.48,0.48,0.04} 
为 了 研究 训练 样本 的 减少 对 实验 结果 的 影响 ， 分 别 随机 
选择 40%、30% 和 20% 的 数据 样本 作为 训练 集 。 实 验 结果 如 
表 4 所 示 ， 可 以 看 出 ， 当 训练 集 的 数量 下 降 ，5 种 模型 输出 


的 均 方 误差 都 增 大 。 但 是 对 于 IHBRB、 


类 能 够 通 


过 专家 知识 确定 初始 多 


IHBRB-1 和 FRM 这 


参数 的 模型 ， 


在 优化 数据 相 


Ht 


录用 


定稿 吴 菲 ， 


本 较 少时 ， 仍 能 够 达到 较 好 评估 性 能 。 


表 4 对 比 模型 的 均 方 误差 


Tab.4 The mean square error of the comparative model 


数据 样本 IHBRB IHBRB-1 BPNN FRM SVR 
50% 0.0028 0.0089 0.0074 0.0121 ”0.0087 
40% 0.0044 0.0097 0.0111 。 0.0152 。 0.0219 
30% 0.0102 0.0174 0.0453 0.0341 ”0.0476 
20% 0.0236 0.0303 0.0951 ”0.0613 ”0.0899 
为 了 进一步 说 明 P-CMA-ES 算法 的 有 效 性 ， 分 别 采用 


PSO 算法 和 DE 算法 对 初始 IHBRB 模型 进行 优化 。 数 据 集 
和 重复 实验 次 数 均 与 前 
如 表 5 所 示 。 可 见 ， 当 训练 


述 一 致 ， 优 化 后 模型 输出 的 均 方 误差 
集 比例 为 50% 时 ， 三 种 方法 优化 


算法 的 性 能 相近 。 当 训练 集 比 例 降低 为 20% 时 ,通过 P-CMA- 


ES 算法 优化 的 IHBRB 模型 


更 好 的 建 模 精度 。 
表 5 不 同 优化 算法 下 IHBRB 输出 的 均 方 误差 
Tab.5 The mean square error of IHBRB with 


different optimization algorithms 


数据 样本 


P-CMA-ES PSO DE 


50% 
40% 
30% 
20% 


0.0028 0.0030 
0.0044 0.0077 
0.0102 0.0147 
0.0236 0.0281 


0.0031 
0.0089 
0.0166 
0.0273 
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